1 はじめに

? ry な畳み込み型および完全注意型フィ ry 、一連のシー ry タスク、特に機械翻訳( ry 、 変圧器 )のためのリカレント ry ます。
Transformerモデルのような、畳込型そしてフルアテンション型なフィードフォワードアーキテクチャは
、シーケンスモデリングタスク、特に機械翻訳、の領域の為の、リカレントニューラルネットワーク(RNN)の実行可能な代替品として近年浮上しています( JonasFaceNet2017 、 ; transformer , )。
? ry は、RNN の重大な欠点、すなわち入 ンスの要素間の並列化を防ぎ、消 ry 対処する本質的に連続的な計算に対処している。
これらのアーキテクチャわ、消失勾配問題( 消失 - 爆発 - 勾配 )に対処し続け乍ら一方で、RNNの顕著な欠点即ち、入力シーケンス要素間並列並行化を阻む本質的シーケンシャル演算、にも対処する。
? Transformerモデルは、特に、自 ry )に完全に依存して、入力と出力のシンボルの一連 ry 付きベクトル空間表現を計算し、次 ry 使用して予測するモデルとしての後続のシンボルに対する分布は、シンボル毎に出 ンスを予測する。
これを具体的にわ、入力と出力との中の各シンボルそれらの一連のコンテキスト情報付ベクトル空間表現を自己アテンションメカニズム( decomposableAttnModel 、 lin2017structured )完全立脚で計算し
、次にそれを使用して後続シンボル群に亘る分布 ( 訳注 : ベクトル空間表現各々の ? ) を、出力シーケンスを各シンボル相互的予測するモデルとして予測、する事によって Transformer モデルわ達成する。
? ry ルの表現も他のシンボルの ry 知されるため、 ry ゙ルな受容フィールドと ry 。
このメカニズムは簡単に並列化できるだけでなく、各シンボル表現も又他の全シンボルの表現によって直接通知 ( 原文 : directly informed ) されるので、効果的なグローバル受容野 ( 訳注 : シンボル粒度な強弱動的調節参照機構 ) となります
? ry 、典型的に制限された受容野を有する畳み込みアー ャとは対照的である。
これは、限定的受容野単一を典型的にわ有する例えば畳込みアーキテクチャそれとわ対照的地位にある。
? しかしながら、ry するために、RNNの帰納的偏見に先立っている。